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摘要 : Apidermin 蛋白 家 族 是 根据 蜜蜂 表皮 和 蛋 日 apidermin 1 -3(APD 1 -3) 而 命名 的 一 个 新 型 的 昆虫 结构 性 表皮 和 蛋白 
家 族 。 为 了 鉴定 西方 蜜蜂 Apis mellifera 基因 组 序列 上 毗邻 基因 簇 apd 7 -3 的 一 个 预测 基因 座 LOC727145 是 否 为 一 个 
新 的 apd 基因 ,本 研究 在 用 5'LongSAGE 标签 定位 该 基因 的 转录 起 始 位 点 (TSS) 的 基础 上 , 利用 其 中 的 3 条 
5'LongSAGE 标 签 序 列 作 为 上 游 引 物 , 通过 RT-PCR 方法 元 隆 了 该 基因 的 cDNA 序列 (GenBank 登录 号 : GU358197， 
GU358199 ,GU358198 ) 。 生 物 信息 学 分 析 发 现 , 基因 座 LOC727145 含有 2 个 外 显 子 和 1 个 “GT-AG” 型 内 含 子 , 其 
cDNA 序列 富 含 GC(70% ) , 可 编码 一 条 长 152 aa 残 基 的 高 度 玖 水 性 多 肽 。 此 多 肽 序列 的 氨基 酸 组 成 与 蜜蜂 APD 
1 -3 表皮 和 蛋白 类 似 , 富 含 Ala, Gly , Pro , Leu 和 Val 5 种 氨基 酸 ( 占 77% ), 其 中 Ala 残 基 含 量 最 高 (29% ) 。 该 多 上 肽 
序列 与 蜜蜂 APD-1 表皮 和 蛋白 序列 的 相似 性 为 50% , 且 其 N 未 端的 预测 信号 肽 序列 与 APD 蛋白 的 信号 肽 序列 类 似 。 
5'LongSAGE 标签 的 基因 组 定位 结果 显示 , 基因 座 LOC727145 在 雄 蜂 头 部 中 表达 丰 度 很 高 RNA Pol 下 [可 从 6 个 不 同 
的 TSS 上 以 不 同 效率 起 始 转 录 ， 其 中 由 一 个 优势 TSS 上 起 始 了 90% 的 转录 。 本 研究 为 apidermin 表皮 和 蛋白 家 族 增添 
了 一 个 新 成 员 , 命名 为 apidermin-like (apd-like) 。 
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TSS identification and cDNA cloning of a cuticular protein gene apd-like 


from the Western honeybee (Apis mellifera) 
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Pharmacology Key Laboratory of Fujian Advanced Fducation, Quanzhou Normal University, Quanzhou, 
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Abstract: The apidermin ( APD) family, named after three cuticular proteins (apidermin 1 -3, APD 1 -— 





3) in the Western honeybee, Apis mellifera, is a novel insect structural cuticular protein family. A 
hypothetical gene locus (LOC727145) was found to be located at the upstream of the reported apd gene 
cluster in the honeybee genomic sequence. In order to characterize this gene, we mapped its transcription 
start sites (TSSs) by a group of $5’ LongSAGE tag sequences, and subsequently cloned its cDNA sequences 
through RT-PCR by using three different $' LongSAGE tag sequences as the up-stream primers. The cloned 
cDNA sequences were submitted to GenBank under the accession numbers GU358197, GU358198 and 
GU358199. Biomformatics analysis revealed that the genomic DNA sequence LOGC727143 contains two 
exons and one intron, where the boundary conforms to the GU/AG rule. The cDNA sequence is extremely 
GC-rich (70% ), and the deduced protein is highly hydrophobic. Five amino acids ( Ala, Gly, Pro, Leu 
and Val) account for 77% of the deduced polypeptide sequence, and Ala is the most abundant residue 
(29% ). These characters are comparative to APD 1 -3. Moreover, the deduced polypeptide sequence has 
30% identity with APD-1 protein, and both possess a similar predicted hydrophobic signal peptide at the N- 
terminal. These results suggest that LOC727145S encodes a novel APD protein. The mapping result of 9 
LongSAGE tag sequences on genome sequence showed that LOC727145S was highly expressed in drone 
head, and RNA Pol [[ initiated transcription of this gene at six alternative TSSs with different efficiency, 
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and 90% of the mRNA molecules came from a dominant TSS. This research identified a novel apidermin 


protein, named apidermin-like (apd-like). 


Key words: Apis mellifera; $ LongSAGE ; cuticular protein; apd-like gene; transcription start site (TSS ) 


表皮 生日 是 昆虫 表皮 的 重要 组 分 。 表 皮 符 日 有 
的 会 与 儿 丁 质 发 生 交 联 , 有 的 会 被 儿 茶 酚 衍 生物 修 
饰 , 有 的 本 号 具有 很 强 的 玖 水 性 , 因此 有 相当 数量 
的 表皮 和 蛋白 很 难 提 取 。 如 甲 忠 Agrianome spinnicollis 
幼虫 中 无 法 提取 的 表皮 和 蛋 日 占 56% , 只 能 通过 水 解 
除去 ; 而 暗 皮 后 尚未 便 化 的 曙 忠 表皮 中 不 能 提取 的 
蛋白 占 总 和 蛋白 的 10% ( Andersen et al.，1995 ) 。 对 
于 无 法 提取 的 昆虫 表皮 香 日 ,无 法 在 恒 日 水 平 上 再 
接 分 析 其 结构 和 性 质 。 

近年 来 ,， 越 来 越 多 的 昆虫 表皮 重 日 的 序列 被 报 
道 。Andersen 等 (1995 ) 综 述 了 38 条 昆虫 表皮 和 蛋 日 
序列 的 特征 。 至 2005 年 , 已 报道 的 表皮 和 蛋白 已 达 
139 条 , 其 中 74 条 是 真正 的 表皮 蛋白， 而 另外 65 
条 则 是 由 cDNA ，ESTs ( expressed sequence tags ) 和 
基因 组 DNA 片断 序列 推导 而 来 ,然后 根据 与 已 知 
表皮 和 蛋白 序列 的 相似 性 而 将 其 产物 蛋白 进行 归 类 
(Willis et al.，2005 ) 。 在 黑 腹 果 晶 Drosopjzlau 
melanogaster、 内 比 亚 按 蚊 Anopheles gambiae、 西 方 
蜜蜂 4px mellifera、 家 盔 Bombyx mori、 金 小 蜂 
Nasonia 等 昆虫 的 全 基因 组 序列 发 表 之 后 ,基于 与 
已 知 表皮 和 蛋 日 序列 的 相似 性 , 研究 人 员 从 基因 组 序 
列 中 鉴别 到 数 以 百 计 的 表皮 有恒 日 基因 (内 比 亚 按 
蚊 ，240 个 ; 家 看 , 221 个 ; 黑 腹 果 晶 ,155 个 ; 西方 
蜜蜂 , 47 个 ; 金 小 蜂 , 76 个 ) (Willis, 2010)。He 
等 (2007) 使 用 LCAMS/AMS 技术 分 析 了 冈比亚 按 蚊 
的 表皮 蛋白 组 , 证 实 了 90% 的 根据 基因 组 序列 注释 
的 表皮 和 蛋 日 基因 的 产物 和 蛋白 可 在 表皮 内 检测 到 , 询 
明 从 基因 组 序列 中 所 注释 的 昆虫 表皮 生日 基因 具有 
较 高 的 可 信和 度 。 最 近 ，Willis(2010 ) 综述 了 目前 所 
有 屁 忠 表皮 和 蛋 晶 的 序列 特征 , 并 将 其 划分 为 12 个 
家 族 。 从 原理 上 看 ,只 要 获得 了 基因 的 基因 组 DNA 
序列 或 其 cDNA 序列 , 就 可 以 使 用 生物 信息 学 方法 
分 析 其 产物 和 蛋 晶 的 是 否 含有 某 个 表皮 和 蛋 日 家 族 的 共 
有 基 序 (motif) ,从 而 判断 该 蛋白 是 否 为 表皮 和 蛋 日 。 
这 种 从 核酸 序列 独 手 鉴定 表皮 生日 的 策略 对 于 分 析 
那些 难以 纯化 的 表皮 有 蛋 日 尤为 有 用 。 

蜜蜂 是 一 种 重要 的 农业 有 益 昆 虫 , 也 是 人 研究 社 
会 行为 学 和 神经 生物 学 的 重要 模式 生物 。 在 对 西方 
蜜蜂 4pis mellifera 全 基因 组 序列 进行 功能 注释 时 ， 
蜜蜂 基因 组 测序 联盟 预测 到 28 个 编码 R&R 表皮 重 


日 的 基因 , 其 数量 仅 相 当 于 果 晶 或 蚊子 该 类 基因 数 
量 的 三 分 之 一 (The Honeybee Genome Sequencing 
Consortium ，2006 ) 。 之 后 ，Kucharski 等 (2007 ) 报道 
了 3 个 被 命名 为 apidermin( apd 1 -3) 的 表皮 和 蛋 日 基 
。 这 3 个 基因 串联 排列 在 第 4 号 染色 体 的 一 段 窜 
含 GC 的 区 域内 ,其 预测 产物 重 昌 高 度 焉 水 , 且 不 
含 R&R 保守 结构 域 。 从 氨基 酸 组 成 上 看 , 这 3 条 
APD 多 肽 序列 中 Ala, Gly, Leu, Pro 和 Val 等 5 种 
去 基 酸 的 含量 为 74% ~86% , 其 中 Ala 残 基 含量 均 
超过 30% 。apd 7 -3 基因 在 工蜂 中 具有 时 空 特异 
性 表达 的 特点 ,其 中 apd-7 在 老 熟 肾 和 新 羽化 蜂 的 
外 骨骼 上皮 中 表达 , apd2 在 气管 、 食 道 、 骨 和 胚胎 
内 表达 , 而 在 日 肾 期 的 外 表皮 和 了 眼 表皮 内 则 检测 到 
apd-3 的 表达 。 最 近 , Zheng 和 Sun 使 用 西方 蜜蜂 成 
年 雄 蜂 头 部 5”LongSAGE 文库 中 的 8 472 条 不 同 的 
标签 序列 在 蜜蜂 全 基因 组 序列 上 注释 了 3 966 个 预 
测 基因 的 转录 起 始 位 点 (TSS) (未 发 表 数 据 ) 。 我 们 
的 5'LongSAGE 数据 显示 , apd-2 基因 在 雄 蜂 头 部 的 
表达 丰 度 非常 高 , 共 被 检测 到 416 次 ; apd-3 基因 的 
表达 丰 度 较 低 ， 只 检测 到 1 次 , 而 未 检测 到 apd-7 
的 转录 (未 发 表 数 据 ) 。 有 趣 的 是 , 我 们 发 现 毗 邻 蜜 
蜂 apd 基因 簇 的 一 个 预测 基因 座 LOC727145 的 转 
录 水 平 与 apd-2 基因 相似 ( 共 检 测 到 429 次 ), 有 6 
条 不 同 的 5'LongSAGE 标签 序列 被 定位 在 该 预测 基 
的 TSS 周围 。 由 于 简单 基因 家 族 的 成 员 往 往 在 基 
因 组 上 串联 排列 , 因此 LOC727145 很 可 能 是 一 个 新 
的 apd 基因 。 为 此 , 本 研究 利用 定位 在 LOC727145 
的 3 条 5'LongSAGE 标签 序列 作为 PCR 上 游 引物 ， 
通过 RT-PCR 克隆 了 该 基因 的 cDNA 序列 , 并 进而 
分 析 了 该 基因 的 结构 及 其 产物 重 日 的 结构 特点 。 我 
们 的 分 析 结 果 显 示 LOC727145 编码 一 个 新 的 APD 
表皮 和 蛋白 (命名 为 apidermin-like，apd-like ) 据 我 们 
所 知 ，apd-ike 是 继 apd 7 -3 之 后 的 第 4 个 有 转录 
数据 支持 的 APD 表皮 重 日 基因 。 


1 材料 与 方法 
1.1 蜜蜂 样品 及 总 RNA 的 提取 


意大利 蜜蜂 Apis mellifera ligustica 蜂 群 饲养 在 
暴 州 师范 学 院 模式 生物 研究 中 心 的 实验 蜂 场 。 从 时 
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脾 上 随机 提 雄 蜂 ， 置 于 -80 冰箱 内 备用 , 用 于 提 
取 总 RNA。 切 取 头 部 , 液 氨 人 研磨 后 按 50 ~ 100 mg 
的 样品 加 入 1 mL TRIzol 试剂 (Cibco BRL 公司 ) , 参 
照 Trizol 试剂 盒 说 明 书 提取 总 RNA。 取 1 pL 总 
RNA 深 液 于 1% 琢 脂 糖 凝 胶 电 泳 检测 。 
1.2 反 转 录 合 成 第 一 链 cDNA 

取 一 个 RNase-free 的 离心 管 (AMBION 公司 )， 
加 入 1 mg 总 RNA, 17.4 nL RT-PCR 级 水 (Ambion 
公司 )，0. 6 AL Oligo-dT 引物 (0.5 pe/nL, 
Invitrogen 公司 ), 混 匀 后 65 人 CC 水浴 10 min, 然后 降 
温 至 37C, 停留 1 min 后 升温 至 和 2C。 男 取 离 心 
管 ,， 加 入 StrataScript buffer 5 pnL, dNTP(10 mmol/L 
dNTP, Invitrogen 公司 )5 AL，StrataSceript Reverse 
Transcriptase ( 50 U/mL, Stratagen 公司 ) 1 AL， 
StrataScript Reverse Transcriptase Inhibitor( 40 U/L, 
stratagen 公司 ) 1 nL。 泥 匀 后 加 入 第 一 离心 管 中 ， 
42%C 1 hh 后, 90%C 5 min 炎 活 逆转 录 酶 。 
1.3 PCR 反应 及 PCR 产物 的 克隆 
1.3.1 引物 设计 :以 西方 蜜蜂 雄 蜂 5'LongSAGE 文 
库 (GenBank 登录 号 GSE19555 ) 中 的 标签 S“- 
AGCACATCCACCCGAGCCA-3'( GenBank 登录 号 : 
AMDH2220 )、 5’-ACAGCACATCCACCCGAGC-3’ 
( CenBank 登录 号 : AMDH1229 ) 和 5’-ACATCCACC 
CGAGCCACCG- 3 (GenBank 登录 号 : AMDH1308 ) 
作为 PCR 上 游 引 物 序列 ; 下 游 引物 根据 标签 
AMDH2220 所 定位 的 预测 基因 (LOC727145$ ) 的 最 后 
一 个 外 显 子 序列 设计 ,序列 为 5'-CAGCTGCTATGCT 
ACCCGAC-3'( 图 1: B)。 引 物 委 托 上 海 生 工 合成 。 
1.3.2 PCR 反应 与 产物 检测 :PCR 反应 体系 为 : 
LA Taq( TaKaRa 公司 )0.25 pL, 2 x GC Buffer II 
20 pL, 2.5 mmol/L dNTP(TaKaRa 公司 )4 pL, 模 
板 ( 反 转 录 产 物 )6.25 pL， 上 游 和 引物 (2 pg/hL) 
(2 pg/pL) 各 1 RL。 反 应 条 件 为 : 95C 变性 3 min; 
95°C 30 s, 57°C 30 s, 72°C 2 min; 35 cycles; 72°C 
保温 10 min。 取 5 kL PCR 产物 于 1. 5% 琼脂 糖 凝 
腕 电泳 检测 , 在 一 个 泳 道中 加 1 kb Plus DNA Ladder 
(Tiangen 公司 ) 。 
1.3.3 PCR 产物 的 纯化 与 克隆 : 将 PCR 产物 在 
1.5% 珠 脂 糖 凝 胶 电 六 后 ,于 紫外 灯 下 切取 含 目 的 
DNA 条 夷 的 琼脂 糖 胶 块 ,以 QIAquick Cel Extraction 
Kit( Qiagen 公司 ) 回收 纯化 目的 DNA 片段 。 使 用 
pMD18-T 试剂 盒 ( TaKaRa 公司 ) 元 隆 PCR 产物 , 具 
体操 作 步 又 参照 试剂 盒 说 明 书 。 反 应 体系 为 : 
Vector 0. 2 kwL，Solution [3 npL， 回 收 PCR 产物 


4.8 AL。16% 水 浴 1h 后 70% 灭 活 10 min。 取 2 pL 
连接 液 转 化 大 肠 杆 菌 Kscherichia coli DH10B 菌株 的 
感受 态 细 胞 , 37% 220 rpm 培养 1h 后 , 在 1 mL 细 
菌 培养 液 中 加 入 20 pL IPTG(100 mg/mL)，, 混 匀 后 
涂 布 LB 平板 (含有 amp 抗生素 , X-gal) , 37 人 恒温 
培养 过 夜 。 

1.3.4 重组 子 的 菌 液 PCR 鉴定 : 在 PCR 管 中 加 入 
20 pL 液体 LB 培养 基 , 接种 日 色 单 克隆 菌落 , 37%C 
培养 60 min, 取 菌 液 作 为 PCR 扩 增 的 模板 。 所 用 引 
物 序列 为 pMD18-T 载体 上 的 测序 通用 引物 P2(5”- 
GTAAAACGACGGCCAGT-3’) 和 P4(5’-AGCGGATA 
ACAATTTCACACAGGA-3')。 使 用 Golden Easy PCR 
System(Tiangen ) 进行 PCR 反应 。 反 应 体系 为 : 2 x 
Reaction Mix 5 pL, 阔 液 (模板 )2 pL, 引物 各 1 nL， 
ddH,0 1 pL, Taq DNA 聚合 酶 0.2 pL(2.5 U/L)。 
PCR 反应 条 件 为 : 95C 变性 5 min; 95%C 30 s, 57C 
40 s, 72%C 2 min, 30 轮 循环 ; 72%C 保温 10 min。 取 
5 ML PCR 产物 于 1% 琼脂 糖 凝 胶 电泳 检测 。 

1.3.5 重组 克隆 的 质粒 抽 提 和 测序 : 取 菌 液 PCR 
鉴定 为 阳性 的 菌 液 , 在 含有 Amp 抗生素 的 LB 固体 
培养 基 划 线 , 37C 培养 过 夜 。 挑 取 日 色 单 克隆 阔 
落 , 接种 5 mL 液体 LB 培养 基 (Amp 100 hg/mL) 于 
37 ,300 rpm 培养 过 夜 。 以 质粒 小 提 试 剂 盒 
(Tiangen 公司 ) 抽 提 质粒 。 以 pMD18-T 载体 上 的 测 
序 通用 引物 P 和 Ps 对 所 克隆 的 PCR 产物 进行 双 
问 测 序 。 

1.4 生物 信息 学 分 析 

1.4.1 基因 座 LOC727145 的 基因 组 DNA 序列 及 
5'LongSAGE 标签 : 用 于 定位 LOC727145 转录 起 始 
位 点 的 5'LongSAGE 标签 来 自 于 NCBI 的 雄 蜂 5" 
LongSAGE 文库 (Series record GSE19555 ) ,标签 序 
列 为 : 5'-GACAGCACATCCACCCGAG-3'’, 5'-ACAG 

CACATCCACCCGAGC3’, 5’-AGCACATCCACCCGAG 
CCA-3’, 5’-GCACATCCACCCGAGCCAC-3’', 5'-ACA 
TCCACCCGAGCCACCG-3', 5’-ATCCACCCGAGCCA 

CCGAG-3’。LOC727145 所 在 的 Contig 序列 
(Contig1775 ) 及 该 基因 的 预测 的 cDNA 序列 
(GenBank 登录 号 : XM _001122858 ) 和 多 肽 序列 
(CenBank 登录 号 : XP_001122858.1) 从 NCBI 网 站 
下 载 。 

1.4.2 局 动 子 的 分 析 : 在 用 5'LongSAGE 标签 在 
Contig1775 中 定位 LOC727145 的 TSS 后 ， 用 
DNASTAR 软件 截取 TSS 上 游 300 bp 至 下 游 100 bp 
的 序列 ， 使 用 TFSEARCH server 网 站 (http: // 


2 期 孙 亮 先 等 ; 西方 蜜蜂 表皮 和 蛋白 基因 apd-like 转录 起 始 位 点 的 定位 及 cDNA 序列 的 分 析 227 


www. cbrc. jp/research/dbATFSEACRCH ) 在 线 分 析 
局 动 子 中 可 能 含有 的 调控 元 件 。 

1.4.3 cDNA 序列 的 分 析 : 用 phred/Phrap/ consed 
软件 对 RT-RCR 产物 的 测序 结果 进行 拼 疙 ,得 到 
cDNA 的 序列 。 使 用 DNASTAR 软件 分 析 该 cDNA 
序列 的 碱 基 组 成 、 所 编码 的 多 肽 及 多 上 肽 的 氨基 酸 组 
成 。 信 号 肽 的 预测 在 SignalP server 网 站 上 进行 
(http: A//www. cbs. dtu. sk/services/SignalP)。 多 
肽 的 多 重 比 较 使 用 MEGA 4.0 软件 进行 。 在 NCBI 
网 站 上 使 用 BLAST 软件 用 cDNA 序列 对 蜜蜂 基因 
组 序列 (Amel_4.0) 注 释 L0C727145 的 内 含 子 \ 外 显 
子 结构 。 


2 结果 与 分 析 


2.1 西方 蜜蜂 基因 组 序列 上 基因 座 LOC72714S 
的 cDNA 序列 分 析 

为 了 验证 西方 蜜蜂 基因 组 序列 上 定位 于 预测 基 
因 座 LOC727145 的 5'LongSAGE 标签 确实 来 自 于 该 
基因 的 mRNA 分 子 , 本 人 研究 分 别 选取 拷贝 数 为 
13, 388 和 17 的 3 条 标签 序列 作为 PCR 的 上 游 引 


物 , 下 游 引 物 序列 根据 该 基因 的 最 后 一 个 外 显 子 设 
计 ( 图 1: B), 以 雄 蜂 头 部 的 总 RNA 为 模板 , 通过 
RT-PCR 获得 3 条 长 约 500 bp 的 DNA 片段 。 图 2 
(A) 为 拷贝 数 为 388 的 标签 序列 作为 上 游 引 物 的 扩 
增产 物 的 琼脂 糖 凝 胶 电泳 结果 , 图 2(B) 为 此 cDNA 
三 段 克 隆 后 的 阔 沙 PCR 产物 的 电泳 结果 。 抽 提 质 
粒 进 行 测序 分 析 , 得 到 了 3 条 长 分 别 为 487 bp, 485 
bp 和 482 bp 的 DNA 序列 (GenBank 登录 号 分 别 为 : 
GU358197, GU358198,，GU358199)。 这 3 条 cDNA 
序列 的 两 个 末端 均 为 引物 序列 ,其 序列 除 在 3 端 长 
度 不 同 外 , 其 他 碱 基 序 列 完 全 相同 。 此 cDNA 序列 
的 一 个 显著 特征 是 富 含 GC(70.3% ) 。 据 Kucharski 
等 (2007) 报道 ， 西 方 蜜蜂 表皮 有 蛋 日 基因 apd 7 -3 
的 编码 区 的 GC 含量 均 高 于 50% , 其 中 apd-7 基因 
编码 区 的 GC 含量 超过 70% 。 在 基因 组 DNA 水 平 
上 , apd 基因 族 所 在 区 域 的 GC 含量 为 38.5% ,而 基 
因 座 LOC727145 的 基因 组 DNA 的 GC 含量 为 
55.6% ; 而 蜜蜂 全 基因 组 序列 中 的 GC 含量 为 
33% , 基因 所 在 区 域 的 平均 GC 含量 仅 为 29% ( The 
Honeybee Genome Sequencing Consortium, 2006 ) 。 


A 2862116 PF 


2871348P 2878007P 2881856 司 
2862792 2872263 2879490 2880673 
LOC727145 = apd-3 apd-1 


(apd-like) 676 bp 875 bp 1484 bp 2Ppd2 


1184 bp 


转录 方向 起 始 密码 子 ” PCR 下游 引物 所 对 应 的 序列 ”终止 密码 子 


—— > 
-TOACAGCACATCCACCCGAGCCACCGAGCCAAACTGTTCCACCAGCTTGOGAAMAAGCGAACAAGCCCTTCGAGCAAACETC G6390p------- GG AAGTATCCTTCGCOCGGATGGACATTGOEAITCCCT 
GACAGCACATCCACCCGAG 


7 

ACAGCACATCCACCCCAGL 一 为: 用 作 PCR 上 游 引物 的 标签 序列 人 3 | 

TT ITT We 388 标签 频率 
CACCCGAGCCACL 3 


ATCCACCCGAGCCACCGAG | 


2868038 


图 1 5'LongSAGE 标签 在 西方 蜜蜂 基因 组 序列 上 所 定位 的 基因 座 LOC727145 的 转录 起 始 位 点 
Fig. 1 The transcription start sites ( TSSs) of the hypothetical locus LOC727145 of apd-like gene from 
Apis mellifera mapped by 5' LongSAGE tags 
A: LOC727145 在 Contig1775 中 位 于 表皮 重 白 apd 1 -3 的 上 游 , 长 箭头 表示 转录 方向 , 短 箭头 表示 编码 序列 的 起 始 位 置 。The genomic context 
of hypothetical gene locus LOC727145. lt is located at the upstream of three apidermin genes (apd 7 -3). The long arrow indicates the direction of 
transcription and the short arrows indicate the initiation site of start codon. B: 定位 在 LOC727145 转录 起 始 位 点 周围 的 5'LongSAGE 标签 序列 。 标 签 
来 自 于 西方 蜜蜂 成 年 雄 蜂 头 部 的 5'LongSAGE 文库 , 标签 数量 代表 mRNA 由 该 位 点 起 始 转录 的 频率 ,编码 序列 的 起 始 密码 子 ATG 和 终止 密码 
子 TAA 用 黑体 标志 , 用 作 RT-PCR 引物 序列 的 5'LongSAGE 标签 用 下 划 线 标志 。The tag hits around transcriptional start site of locus LOC727145. 
The tags are derived from a $'LongSAGE library of adult drone head. The number of tags indicates the initiation efficiency. The start codon and stop codon 


are in bold. The sequences used for designing PCR primers are underlined. 
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图 2 ”西方 罕 蜂 基因 组 上 基因 座 LOC727145 的 RT-PCR 


产物 (A) 与 其 重组 子 菌 落 PCR(B) 琼脂 糖 凝 胶 电 泳 结果 
Fig. 2 Agarose gel electrophoresis result of RT-PCR product of 
locus LOC727145 on Apis mellifera genome (A) and 
the corresponding recombinant clone ( B) 


M. DNA ladder. 


表 1 比较 了 用 cDNA 序列 (CenBank 登录 号 : 


表 1 


54 卷 


GU358199 ) 与 预测 的 参考 mRNA 序列 ( CenBank 登 
录 写 : XM_001122858 ) 对 基因 座 LOC727145 所 注释 
的 外 显 子 。 二 者 所 注释 的 基因 结构 基本 相同 , 都 是 
由 2 个 外 显 子 在 和 1 个 长 218 bp 内 含 子 组 成 ( 表 
1)。 此 内 含 子 的 边界 序列 为 “5 GG 4 GTG---TAG J 
GA 3'”, 属于 典型 的 “GU-AG” 型 内 含 子 。 从 碱 基 组 
成 上 看 ,LOC727145 的 一 个 明显 的 特征 是 其 内 含 子 
富 含 AT(68% ) 而 外 显 子 却 富 含 CC(70% ) 。 与 软 
件 预 测 的 两 个 外 显 子 相 比 , 用 克隆 到 的 cDNA 序列 


所 注释 的 第 一 个 外 显 子 在 Tn 74 bp， 而 第 二 
个 外 显 子 在 3' 端 短 48 bp( 表 1)。 这 是 由 于 蜜蜂 基 


因 组 测序 联盟 所 预测 的 转录 单元 是 由 起 始 密码 子 开 
始 至 终止 密码 子 结束 (The Honeybee Genome 
Sequencing Consortium ，2006 ) ， 而 本 研究 所 用 的 
RT-PCR 上 游 引 物 序 列 在 5 末端 包含 了 转录 起 始 位 

， 而 下 游 引 物 则 位 于 预测 基因 最 后 一 个 外 显 子 的 
， 因此 所 克隆 的 cDNA 在 5' 端 含有 mRNA 的 5" 
UTR 序列 , 但 3' 端 尚 不 完整 。 


用 cDNA 序列 和 软件 预测 mRNA 所 注释 的 西方 蜜蜂 基因 组 序列 上 基因 座 LOC727145 的 外 显 子 


Table 1 Exons of locus LOC727145 on genomic sequences of Apis mellifera that were annotated with 
$s’'LongSAGE tag-generated cDNA and in silicon predicted mRNA 


GenBank 登录 号 


GenBank accession no. 
cDNA GU358199 
基因 组 DNA Genomic DNA Contig1773 
预测 的 mRNA Predicted mRNA XM_001122838 


基因 组 DNA Genomic DNA Contig17734 


2.2 西方 蜜蜂 基因 组 上 基因 座 LOC727145 转录 
起 始 位 点 的 定位 

在 西方 蜜蜂 全 基因 组 的 功能 注释 中 ,预测 基因 
座 LOC727145 位 于 连锁 群 4. 18, 下 游 毗 邻 蜜蜂 表 
皮 和 集 日 基因 簇 apd 7 -了 (图 1: A)。 在 问 CenBank 
释放 了 该 基因 的 cDNA 序列 后 (GenBank 登录 号 : 
GU358197, GU358199, GU358198; 10-MAR-2010 ) ， 
NCBI 在 4 月 10 日 按照 我 们 的 注释 将 该 基因 座 的 功 
能 注释 更 新 为 apidermin-like(4-Apr-2010)。 因 为 5" 
LongSAGE 标签 来 目 于 全 长 mRNA 分 子 的 5" 末端， 
因此 5'LongSAGE 文库 中 不 同 标签 序列 在 基因 组 上 
的 位 置 可 代表 相应 活性 基因 的 TSS, 而 所 检测 到 的 
各 标签 序列 的 拷贝 数 则 可 代表 由 该 TSS 起 始 转录 的 
效率 (Wei et al.，2004 ) 。5'LongSAGE 标签 序列 的 


cDNA 长 度 (bp) 


所 注释 的 外 显 子 在 基因 组 中 的 位 置 


Location of the exons annotated on genomic DNA 


Length of cDNA 


485 1 -387 386 —485 


1 660 387 -1 660 773 1 660 990 -1 661 089 


459 1 —314 313 —459 


1 660 460 -1 660 773 1 660 990 -1 661 136 


基因 组 定位 结果 显示 , 在 雄 蜂 的 头 部 中 ,apd-like 基 
因 可 从 位 于 起 始 密码 子 上 游 的 76 bp 范围 内 的 6 个 
TSS 上 起 始 转录 , 并 且 所 转录 的 第 一 个 碱 基 都 是 嗓 
叭 (图 1: B)。RNA 聚合 酶 开 从 这 6 个 TSS 上 以 不 
同 的 效率 起 始 转录 ， 其 中 由 标签 序列 
“AGCACATCCACCCGAGCCA”(388 个 拷贝 ) 所 定位 
的 TSS 为 优势 TSS， ee like ee 90. 4% 的 
mRNA 分 子 由 该 位 点 起 始 。 此 结果 显示 在 雄 蜂 涉 部 
中 apd-like 基因 可 从 6 ， 录 起 始 位 点 上 
(alternative TSS) 起 始 转 录 , 且 其 表达 水 平 非常 高 。 
2.3 西方 蜜蜂 APD-like 蛋白 序列 的 分 析 

基因 座 LOC727145 的 预测 产物 蛋白 (GenBank 
登录 号 : XP_001122858.1) 含 有 152 个 氨基 酸 残 基 ， 
其 中 跑 水 性 氨基 酸 占 72%, 说 明 此 蛋白 具有 高 度 的 
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玖 水 性 。 从 提 基 酸 组 成 上 看 , Ala, Gly, Pro, Leu 和 
Val 5 种 氨基 酸 占 这 条 多 肽 序列 的 77% ,其 中 Ala 
含量 最 高 (29%)，Gly 为 第 二 丰富 的 氨基 酸 
(16% ) 。 而 已 报道 的 3 条 蜜蜂 表皮 和 蛋白 APD 1 -3 
也 具有 高 度 玖 水 性 ,其 中 Ala 含量 均 高 于 30% 
( Kucharski et al., 2007)。 可 见 LOC727145 所 编码 
的 蛋 日 在 氨基 酸 组 成 上 与 APD 1 -3 非常 相似 。 
LOC727145 产物 蛋白 的 N 末端 有 一 段 18 AA 
的 预测 信号 肽 序列 , 该 信号 肽 能 形成 -螺旋 结构 
(图 3), 暗示 着 此 和 蛋 晶 是 一 种 分 泌 型 重 日 。APD- 
like 多 肽 序列 中 存在 低 重 复数 的 短 重复 序列 。 如 
AALAGPL/A 重复 出 现 了 3 次 , 其 玖 水 性 氨基 酸 会 
形成 a- 螺 旋 二 级 结构 , 而 在 短 重复 序列 中 的 Pro 残 
基 处 则 可 能 形成 -转角 ,从 而 改变 肽 链 走 向 。 用 
BLAST 软件 在 NCBI 网 站 上 在 线 搜索 数据 库 时 , 没 


prob. 1 





有 在 APD-like 序列 中 发 现 保守 的 结构 域 ; 但 在 
Swissprothttp://expasy. org/tools/) 网 站 上 用 
ScanProsite 软件 在 线 搜索 时 发 现 此 多 上 肽 序列 的 5 ~ 
148 位 氨基 酸 序 列 是 一 个 保守 的 宣 售 肉 氨 酸 区 
( Ala-rich region profile ) 。 本 研究 没有 在 APD-like 
中 发 现 昆虫 表 皮蛋 日 的 特征 性 基 序 , 但 蛋 日 序列 比 
对 结果 显示 (图 4) ，APD-like 曙 日 与 蜜蜂 表皮 和 蛋 日 
APD-1，APD-3 和 APD-2 的 同 源 性 分 别 为 50%， 
42% 和 32% 。 由 于 这 4 种 蛋白 具有 序列 类 似 , N 末 
端 都 有 一 条 氨基 酸 组 成 类 似 的 信号 肽 , 多 肽 内 均 富 
含 巩 水 性 氮 基 酸 等 相似 特征 ,而 且 这 4 个 和 蛋 晶 的 编 
码 基 因 串 联 排列 成 一 个 基因 簇 ， 属 于 同一 和 量 日 家 
族 , 因此 我 们 将 之 命名 为 apidermin-like (APD- 
like ) 。 


APD-like 和 蛋白 的 预测 信号 肽 序列 


-KO OO 


SS OCHHHHHHHHHHHHHHHHE CccccccccHHHHCCCCCCHHHCCCCCCCHHH 
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图 3 西方 蜜蜂 APD-like 蛋白 的 序列 和 预测 的 二 级 结构 
Fig. 3 The polypeptide sequence of APD-like protein from Apis mellifera and its predicted secondary structure 


预测 的 信号 肽 序列 用 带 箭 头 的 下 划 线 表示 , 多肽 序列 中 的 短 重 复 序列 用 下 划 线 表示 , 由 cDNA 所 推导 的 多 肽 序列 C 末端 和 内 含 子 在 基因 组 序 
列 中 的 位 置 用 箭头 表示 。The predicted signal peptide is underlined. The short sequence repeats are underlined. The arrows indicate the position of 


intron in the genomic sequence and the C-terminal of polypeptide sequence that is deduced from RT-PCR amplified cDNA. 
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图 4 ”西方 蜜蜂 APD-like 蛋白 与 已 报道 的 蜜蜂 表皮 和 蛋白 APD 1 -3 的 多 肽 序列 比较 
Fig. 4 Alignment of APD-like protein from Apis mellifera with the reported honeybee cuticular proteins APD 1 -3 


2.4 西方 蜜蜂 apd-like 基因 启动 子 区 域 中 的 顺 式 
作用 元 件 

转录 起 始 位 点 (TSS) 是 基因 组 序列 中 各 转录 单 
元 的 5' 边 界 。 对 于 真 核 生物 的 蛋 日 质 编码 基因 而 
言 , 启动 子 元 件 一 般 位 于 TSS 上 游 300 bp 至 下 游 
50 bp 之 内 。 只 有 少数 基因 在 TSS 上游 几 kb 的 位 置 
也 存在 调控 元 件 , 而 超出 TSS 下 游 100 bp 的 范围 内 
很 少 存在 启动 子 元 件 。 理 论 上 只 要 能 在 DNA 序列 
上 准确 地 定位 TSS, 就 可 以 准确 地 分 析 该 基因 的 启 


20 bp 


动 子 序列 。 因 此 , 在 定位 了 apd-like 基因 的 6 个 选 
择 性 TSS 之 后 , 本 研究 对 TSS 附近 的 - 300 bp ~ 
+100 bp 区 域内 的 顺 式 作 用 元 件 进行 了 在 线 分 析 。 
分 析 结 果 显 示 ( 图 5), 在 第 一 个 TSS 上 游 -20 ~ 
-30 区 存在 一 个 典型 的 TATA 框 , 在 -59 ~ -65 和 
-87 ~ -93 区 为 2 个 GC 框 ; 此 外 , 在 下 游 +34 ~ 
+39 区 有 和 下游 -107 ~ 一 117 区 、-272 ~ -286 区 
有 3 个 热 休 克 转 录 因 子 (HSF) 结 合 位 点 。 


转录 起 始 位 点 


-4 4 -和 An 


大 HSE 才 CCbox 


起 始 密码 子 
攻 辐 TATA box 


图 5 西方 蜜蜂 apd-like 基因 5" 侧翼 序列 上 预测 的 顺 式 作 用 元 件 的 分 布 
Fig. 9 Scheme of putative cis-acting elements mapped on the 5'-flanking sequence of apd-like gene from Apis mellifera 
箭头 表示 用 5' LongSAGE 标签 定位 的 转录 起 始 位 点 ，ATG 表示 起 始 密 码 子 。The transcription start sites are mapped by 5’ LongSAGE tags. ATG is 


the start codon. 
3 讨论 


5' LongSAGE 技术 是 利用 CAP-Trapper 原理 获 
得 含有 35 "帽子 的 全 长 cDNA, 然后 通过 一 系列 的 加 
接头 、 酶 切 、 连 接 、 克 隆 和 高 通 量 测序 等 操作 ,最 
终 得 到 转录 组 中 各 种 mRNA 分 子 的 5 “末端 的 长 19 
nt 的 标签 序列 。 将 这 些 标签 序列 定位 在 全 基因 组 
序列 上 , 就 可 以 高 通 量 地 获得 转录 单元 的 TSS 信 
息 , 而 标签 序列 被 检测 到 的 次 数 则 可 代表 转录 组 中 
各 mRNA 分 子 的 丰 度 ( Wei et al.,2004)。 本 研究 发 
现 西 方 蜜蜂 雄 蜂 5'LongSAGE 文库 中 的 一 组 标签 序 
列 可 定位 在 蜜蜂 基因 组 序列 的 一 个 预测 基因 座 
(LOC727145 ) 的 编码 序列 上 游 , 从 而 证 实 了 基因 组 
中 确实 存在 这 个 基因 座 。 引 人 注目 的 是 , 在 雄 蜂 头 
部 转录 组 中 ,此 基因 座 的 转录 水 平 仅 次 于 位 于 它 的 
上 游 的 一 个 预测 基因 座 (LOC409716)。 而 且 , 基因 


座 LOC727145 在 雄 蜂 头 部 可 从 6 个 TSS 上 以 不 同 
的 效率 起 始 转录 。 在 查看 LOC727145 在 基因 组 的 
位 置 时 , 我 们 发 现 该 基因 位 于 第 4 号 染色 体 上 , 其 
上 游 毗 邻 表 皮蛋 日 基因 簇 apd 7 -3。 在 对 其 序列 进 
行 分 析 时 , 我 们 发 现 基因 座 LOC727145 的 编码 序列 
富 含 GC(70% ) , 所 编码 的 蛋 日 与 蜜蜂 APD-1 有 和 较 
高 的 同 源 性 为 50% , 且 此 多 肽 序列 具有 高 度 朴 水 、 
富 含 Ala、N 末端 有 朴 水 性 的 信号 肽 序列 等 表皮 和 蛋 
日 基因 apd 7 -3 的 特征 。 因 为 真 核 生物 简单 基因 
家 族 中 的 基因 一 般 以 串联 方式 前 后 相连 , 因此 根据 
以 上 证 据 , 可 以 我 们 认为 基因 座 LOC727145 与 蜜蜂 
表皮 和 蛋白 基因 apd 7 -3 属于 同一 基因 家 族 。 

由 于 5'LongSAGE 标签 来 自 于 mRNA 的 $ 末 端 
的 序列 , 所 以 在 理论 上 可 作为 克隆 全 长 cDNA 的 5" 
端 PCR 引物 。 为 了 验证 基因 座 LOC727145 的 预测 
结构 是 否 正确 , 本 研究 尝试 用 定位 在 该 基因 的 5" 
LongSAGE 标签 序列 作为 上 游 引物 ,而 下 游 引物 根 
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据 最 后 一 个 外 显 子 序列 设计 ,通过 RT-PCR 克隆 
cDNA , 结果 得 到 了 3 条 具有 完整 5' 末 端的 cDNA 序 
列 。 此 结果 不 仅 验 证 了 5'LongSAGE 标签 序列 确实 
是 来 目 于 mRNA 分子， 而 且 也 证 明 使 用 5 
LongSAGE 标签 序列 作为 RT-PCR 引物 克隆 全 长 
cDNA 的 5' 端 序列 策略 的 可 行 性 。 相 对 于 文库 杂交 
筛选 、RACE 等 方法 , 该 cDNA 克隆 策略 更 为 经 济 
快捷 。 
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